20240723 每日AI必读资讯

知识蒸馏通过最小化学生模型(新模型)和教师模型(旧模型)之间的KL散度来实现,这样新模型可以在保留自身性能提升的同时,尽可能模仿旧模型的预测行为。-MUSCLEMUSCLE的核心是训练一个兼容性适配器,使得在...